ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. ОБРОБКА ОКРЕМИХ СЛІВ (підрахунок слів та лексична база даних англійської мови). . Методичні вказівки до лабораторної роботи з Комп’ютерна лінгвістика. Робота № 400186

Перехід до торгівельного партнера Binance

ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. ОБРОБКА ОКРЕМИХ СЛІВ (підрахунок слів та лексична база даних англійської мови).

Інформація про навчальний заклад

ВУЗ:

Національний університет Львівська політехніка

Інститут:

Інститут комп’ютерних наук та інформаційних технологій

Факультет:

Не вказано

Кафедра:

Системи автоматизованого проектуваня

Інформація про роботу

Рік:

2005

Тип роботи:

Методичні вказівки до лабораторної роботи

Предмет:

Комп’ютерна лінгвістика

Завантажити

Частина тексту файла

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ “ЛЬВІВСЬКА ПОЛІТЕХНІКА” іНСТИТУТ КОМП’ютерних НАУК та ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ Кафедра “Системи автоматизованого проектування” ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. ОБРОБКА ОКРЕМИХ СЛІВ (підрахунок слів та лексична база даних англійської мови). Методичні вказівки до лабораторної роботи № 4 з дисципліни “Комп’ютерна лінгвістика” для студентів спеціальності 7.030.505 “Прикладна лінгвістика” та магістрів за фахом 8.030.505 “Прикладна лінгвістика”. Затверджено на засіданні кафедри “Системи автоматизованого проектування” Протокол № 8 від 21.XI.2005 р. на засіданні методичної ради ІКНІ Протокол № 4-05/06 від 1.XII.2005 р. ВАК № 1769 від 12.XII.2005 р. Львів-2005 ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. ОБРОБКА ОКРЕМИХ СЛІВ (підрахунок слів та лексична база даних англійської мови). Методичні вказівки до лабораторної роботи № 4 з дисципліни “Комп’ютерна лінгвістика” для студентів спеціальності 7.030.505 “Прикладна лінгвістика” та магістрів за фахом 8.030.505 “Прикладна лінгвістика” для стаціонарної та заочної форм навчання/Укл. А.Б.Романюк. - Львів: Національний університет ”Львівська політехніка”, 2005. - 24с. Укладачі: Романюк А. Б., канд. техн. наук, ст. викладач Відповідальний за випуск: Лобур М. В., доктор техн. наук, професор Рецензенти: Каркульовський В. І., канд. техн. наук, доцент Шуневич Б.І., канд. філол. наук, доцент. МЕТА РОБОТИ Вивчення основ програмування на мові Python. Ознайомлення з способами підрахунку слів. Ознайомлення з лексичною базою даних англійської мови WordNet. КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ 1.1 Підрахунок слів. Типові програми. Для підрахунку частоти слів у тексті (tokens і type) в Python часто використовується наступна програма В рядку 1 здійснюється ініціалізація словника. Далі для кожного сова в кожному реченні відбувається збільшення відповідного лічильника (рядок 2). Для виведення вмісту словника на екран використовуються ітерації за ключами словника і записи словника виводяться на екран (рядок 3, виводяться перші впорядковані за абеткою 5 записів). 1.1.1 Частотний розподіл. Результати отримані в попередньому прикладі відповідають певній абстрактній структурі – набору елементів і їх частот – називають частотним розподілом. Так як при роботі з текстом часто потрібно здійснювати подібні обчислення в NLTK реалізовано окремий клас FreqDist(). Використовуючи цей клас приклад можна переписати більш зручно наступним чином: Деякі методи властиві частотному розподілу і реалізовані в NLTK наведені в таблиці 1 Таблиця1 Отримані результати не недто цікаві. Можливо більш інформативним був би список найчастотніших слів (tokens). Об’єкт FreqDist є певного виду словником і тому можна легко побудувати пари ключ-значення і відсортувати їх по спаданню, як показано нижче: Note the arguments of the sorted() function (line `): itemgetter(1) returns a function that can be called on any sequence object to return the item at position 1; reverse=True performs the sort in reverse order. Together, these ensure that the word with the highest frequency is listed first. This reversed sort by frequency is such a common requirement that it is built into the FreqDist object. Listing demonstrates this, and also prints rank and cumulative frequency. Unfortunately the output in Listing is surprisingly dull. A mere handful of tokens account for a third of the text. They just represent the plumbing of English text, and are completely uninformative! How can we find words that are more indicative of a text? As we will see in the exercises for this section, we can modify the program to discard the non-content words. In the next section we see another approach. Отримані результати є малоінформативними, третину списку з...

Методичні вказівки до лабораторної роботи Комп’ютерна лінгвістика

01.01.1970 03:01

Коментарі

Ви не можете залишити коментар. Для цього, будь ласка, або зареєструйтесь.

Завантаження файлу

Якщо Ви маєте на своєму комп'ютері файли, пов'язані з навчанням( розрахункові, лабораторні, практичні, контрольні роботи та інше...), і Вам не шкода ними поділитись - то скористайтесь формою для завантаження файлу, попередньо заархівувавши все в архів .rar або .zip розміром до 100мб, і до нього невдовзі отримають доступ студенти всієї України! Ви отримаєте грошову винагороду в кінці місяця, якщо станете одним з трьох переможців!

поділитись

Стань активним учасником руху antibotan!
Поділись актуальною інформацією,
і отримай привілеї у користуванні архівом! Детальніше

Які роботи дозволено додавати до архіву?

Новини

Кілька варіантів заощадити на навчанні в Польщі

26.02.2019 12:38

Будь-який абітурієнт може поставити перед собою мету вчитися в Польщі. Для тих, кого зупиняє фінансове питання, важливо знати, що існує кілька варіантів навчання в Польщі для українців безкоштовно.

Інформація про навчальний заклад

Інформація про роботу

Частина тексту файла

Коментарі

Завантаження файлу

Оголошення від адміністратора

Admin

Новини

Вхід на сайт

Поскаржитися на роботу